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文本 分 类 中 一 种 特征 选择 方法 研究 
赵 ” 婧 ， 邵 雄 凯 ， 刘 建 舟 ， 王 春 枝 


(湖北 工业 大 学 计算 机 学 院 , 武汉 430068) 


摘 要 : 针对 文本 分 类 中 传统 特征 选择 方法 卡 方 统计 量 和 信息 增益 的 不 足 进行 了 分 析 ， 得 出 文本 分 类 中 的 特征 选择 关 
键 在 于 选择 出 集中 分 布 于 茶 类 文档 并 在 该 类 文档 中 均匀 分 布 且 频 繁 出 现 的 特征 词 。 因 此 ， 综 合 考虑 特征 词 的 文档 频 、 
词 频 以 及 特征 词 的 类 间 集 中 度 、 类 内 分 散 度 ， 提 出 一 种 基于 类 内 类 间 文 档 频 和 词 频 统 计 的 特征 选择 评估 函数 ， 并 利用 
该 特征 选择 评估 函数 在 训练 集 每 个 类 别 中 选取 一 定 比例 的 特征 词组 成 该 类 别 的 特征 词 库 ， 而 训练 集 的 特征 词 库 则 为 各 
类 别 特征 词 库 的 并 集 。 通 过 基于 SVM 的 中 文 文本 分 类 实验 表明 ， 该 方法 与 传统 的 卡 方 统计 量 和 信息 增益 相 比 ， 在 一 
定 程度 上 提高 了 文本 分 类 的 效果 。 
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Study on feature selection method in text classification 


Zhao Jing, Shao Xiongkai, Liu Jianzhou, Wang Chunzhi 
(School of Computer Science Hubei University of Technology, Wuhan 430068, China) 


Abstract: The traditional feature selection method of chi-square test and information gain in text classification has its inherent 
defect. This paper analyzed the key of feature selection in text classification being to select feature words distributed evenly and 
frequently in each type of documents. This should consider not only the document frequency and term frequency of feature 


words, but also the inter class concentration degree and the intra class scatter degree of feature words. It proposed a feature 


selection evaluation function that is based on document frequency of within-class and between-class and term frequency statistics. 


The feature selection evaluation function could select a certain proportion of the feature words in each category of the training 
set to form the corresponding class of the feature word library. The entire feature word library of the training set could be 
composed by each of such classes as a result. It carried out the experiment of Chinese text classification based on SVM. The 
experimental results show that the proposed method improves the effectiveness of text classification to a certain extent, compared 
with the traditional chi-square test and information gain. 
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所 存在 的 问题 是 : a) 分 类 时 间 开 销 大 ; b) 过 多 的 特征 可 能 会 导致 


0 引言 “ 维 数 灾难 ”B1。 特征 降 维 , 即将 特征 空间 从 高 维 降 低 到 低 维 层 
文本 挖掘 技术 作为 组 织 和 人 处理 海量 文本 数据 的 有 效 技术 ， 次 ， 从 而 提高 分 类 的 准确 率 ， 降 低 分 类 的 时 间 成 本 。 

近 几 年 备 受 关注 。 文 本 分 类 作为 文本 挖掘 中 的 关键 技术 之 一 ， 特征 降 维 包括 特征 选择 〈feature selection ) 和 特征 抽取 

其 目的 是 在 预定 义 的 分 类 体系 下 ， 根 据 文本 的 特征 (内 容 或 属 (feature extraction) 中 。 特 征 选 择 ， 即 从 原始 特征 数据 集中 选 


MGS 


性 ), 将 给 定 的 文本 与 一 个 或 多 个 类 别 相 关联 的 过 程 趾 , 基于 机 择 出 一 部 分 具有 代表 性 的 特征 。 特 征 选 择 后 得 到 的 是 原始 特征 
器 学 习 的 文本 自动 分 类 的 整体 思路 大 致 为 文本 预 处 理 ， 特 征 降 。 ”数据 自 
售 ， 建 立 文本 表示 模型 ， 使 用 分 类 算法 分 类 ;分 类 模型 评 佑 。 所 有 信息 来 获得 新 的 转换 空间 ， 从 而 将 高 维 模式 映射 到 低 维 模 


nt 
I 


类 精度 和 分 类 效率 中。 文本 通过 预 处 理 后 变 成 由 词 项 表示 ， 即 frequency，DF) 、 互 信息 (mutual information，MI) 、 信 息 


> 


的 一 个 子 集 。 特 征 抽取 ， 即 利用 原始 特征 空间 中 包含 的 


特征 降 维 作为 文本 分 类 中 的 重要 步骤 ， 其 目的 在 于 提高 4 式 和 内。 其 中 ， 传 统 的 特征 选择 方法 有 文档 频率 〈document 


息 增 


为 原始 特征 空间 。 该 原始 特征 空间 具有 高 维 性 和 稀 玻 性 的 特点 ， 益 (information gain, IG) 、 卡 方 统计 量 (chi-square test, CHI) 
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等 器 。Yang 等 人 的 的 研究 结果 表明 ， 卡 方 统计 量 (CHI) 和 信息 IG 即 为 不 考虑 任何 特征 时 文档 的 烂 和 考虑 该 特征 后 文档 
增益 (IG) 的 分 类 效果 相对 较 好 ， 其 结论 对 之 后 的 研究 具有 习 的 糯 的 差 值 ”。 该 差 值 表示 信 息 不 确定 性 的 减少 程度 。 信 息 不 
要 的 参考 价值 。 本 文 主要 针对 CHI 和 IG 特征 选择 方法 进行 研 ”确定 性 减少 程度 越 大 ， 相 应 的 信息 增益 越 大 ， 该 词 项 提供 的 信 


IN 


究 和 分 析 ， 并 提出 了 一 种 综合 考虑 特征 词 的 文档 频 、 词 频 以 及 息 越 多 ， 该 词 项 越 重 要 。 
特征 词 的 类 间 集 中 度 、 类 内 分 散 度 的 特征 选择 方法 、 基 于 类 内 对 此 ， 在 进行 特征 选择 时 ,通常 按照 IG 值 降序 排列 ， 选 取 
类 间 文 档 频 和 词 频 统计 (document frequency of within-class and 一 定 比 例 的 词 作 为 特征 词 。IG 评估 函数 的 公式 如 下 : 


between-class and term frequency statistics，DFCTFS ) 的 特征 选 


af af 
1GO=-> P(C)logP(C)+PO》 PC |DlogP(C |1D+ 
i=l i=l 


择 方法 。 i (4) 
P(D)> P(C|DlogP(C I?) 
1 
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1 ”相关 工作 = | 、 
其 中 : M 表示 类 别 数 ， PCC) 表示 属于 类 Ci 的 文本 在 文本 集中 出 
1.1 CHI 特征 选择 方法 现 的 概率 ， 即 
CHI 以 特征 词 t 与 类 别 C: 相互 独立 为 前 提 ， 计 算 这 两 个 变 jc) -属于 类 C 的 文本 数 
量 之 间 的 值 〈 即 偏差 程度 〉。 如 果 计 算得 到 的 值 越 大 〈 即 偏差 ”文本 集 总 文本 数 
较 大 ) ， 则 特征 词 t 与 类 别 C; 越 相关 "。CHI 评估 函数 的 公式 Pt) 表示 文本 集中 包含 特征 词 t 的 文本 的 概率 ， 即 
如 下 : 包含 词 :的 文本 数 
PO -让 案 玉 文 丰 玫 GO 
je Nx(AxD-BxC) 上 
(A+C)x(B+D)x(A+B)x(C+D) PC 10 表示 文本 包含 特征 词 七 时 属于 类 Ci; 的 条 件 概率 ， 即 
其 中 : N、A、B、C、D 参数 的 意义 如 表 1 所 示 。 P(C,D _ 包含 词 : 且 属 于 类 C 的 文本 数 
P(G|D)=—— 二 A (7) 
表 1 CHI 评估 函数 中 各 项 参数 的 意义 PD 包 合 词 的 文本 到 
届 于 类 别 Ci 不 属于 类 别 Ci 总 数 P(G,1D) 表示 文本 不 包含 特征 词 t 时 属于 类 C; 的 条 件 概 率 ， 即 
2 和 ;、_ P(C,D) _ 不 包含 词 ! 且 属于 类 C 的 文本 数 
P(CID=~ = ee (8) 
不 包含 特征 词 t 的 文本 数 。 “CC D C+D PO 不 包含 词 :的 文本 数 
总 数 A+C B+D N=A+B+C+D 但 是 传统 的 16 方法 存在 着 不 足 : a) 未 考虑 特征 词 在 各 类 
式 (1) 计算 得 到 的 是 特征 词 t 对 于 一 个 类 别 的 CHI 值 。 对  ” 别 中 的 词 频 分 布 , 只 考虑 了 特征 词 的 文档 频 , 导致 1G 可 能 会 i 


于 训练 集 为 多 个 类 别 ， 特 征 词 t 对 于 整个 训练 集 的 CHI 值 ， 即 ”” 择 文档 频率 高 但 词 频 低 的 特征 词 ; b) 考虑 了 特征 词 t 在 类 别 Ci 
为 计算 该 特征 词 t 在 训练 集中 各 类 别 的 CHI 值 , 取 计 算 所 得 CHI ”中 未 出 现时 对 于 分 类 的 贡献 ， 但 该 类 别 未 出 现 的 特征 词 对 特征 
值 的 平均 值 或 者 最 大 值 作为 结果 ， 可 用 式 (2) 和 (3) 分 别 进 ” 选择 也 存在 着 干扰 ”; c) 只 能 作 全 局 的 特征 选择 ( 指 训练 集中 
行 表示 。 所 有 类 别 都 使 用 相同 的 特征 集合 ) ， 而 无 法 作 本 地 的 特征 选择 
〈 指 训练 集中 每 个 类 别 都 有 自己 的 特征 集合 ) ”。 


WY POC) (2) 
ee 2 ”DFCTFS 特征 选择 方法 
Kia (tC) = max2fX (1, 0)} (3) 
其 中 : M 为 类 别 数 。 2.1 DFCTFS 特征 选择 评估 函数 
但 是 传统 的 CHI 方法 存在 着 不 足 : a) 未 考虑 特征 词 在 各 类 综合 分 析 CHI 和 IG 的 不 足 ， 可 以 得 出 文本 分 类 中 特征 选 


别 中 的 词 频 分 布 ， 只 考虑 了 特征 词 的 文档 频 ， 导 致 CHI 可 能 会 ” 择 的 关键 在 于 选择 出 集中 分 布 于 某 类 文档 并 在 该 类 文档 中 均匀 
选择 文档 频率 高 但 词 频 低 的 特征 词 上 5， 例 如 类 别 C; 的 多 数 文档 ”分 布 且 频 繁 出 现 的 特征 词 。 因 此 ， 本 文 综合 考虑 特征 词 的 文档 
中 都 含有 特征 词 t+， 即 特征 词 t 在 类 别 Ci 的 文档 频率 高 ， 但 特 。 频 、 词 频 以 及 特征 词 的 类 间 集 中 度 、 类 内 分 散 度 ， 提 出 一 种 基 
征 词 t 在 其 每 篇 文档 中 只 出 现 一 次 , 即 特 征 词 t 在 类 别 C; 的 词 于 类 内 类 间 文 档 频 和 词 频 统计 (DFCTFS) 的 特征 选择 方法 。 
频 很 低 ， 该 特征 词 t 并 不 适合 代表 类 别 C;， 但 使 用 CHI 特征 选 ” 2.1.1 特征 词 的 类 间 集 中 度 、 类 内 分 散 度 
择 方法 可 能 会 选择 该 特征 词 t; b) 不 属于 该 类 别 的 特征 词 的 干 能 够 代表 某 一 类 别 的 特征 词 应 是 集中 分 布 在 该 类 别 中 《〈 即 
扰 ， 因 为 式 (1) 中 的 因子 (4xD-Bxc) 的 存在 ， 导 致 当 BC>>AD ”类 间 集 中 度 高 ), 并 且 在 该 类 别 中 均匀 分 布 ( 即 类 内 分 散 度 大 )。 
时 ， 即 特征 词 t 不 属于 该 类 别 C; 时 ， 其 CHI 值 也 会 较 高 ， 可 能 综合 考虑 这 两 个 因素 ， 本 文 提出 : 


被 选择 为 代表 C; 类 的 特征 词 ”。 2 2 PEC) , DFC) 
1.2 1G 特征 选择 方法 ee 


IG 用 于 文本 的 特征 选择 时 , 衡量 的 是 某 个 词 的 出 现 与 否 对 其 中 :DF (ti, CD 表示 特征 词 ti 在 类 别 C; 中 出 现 的 文本 数 ;DF (to 
判断 一 个 文本 是 否 属于 该 类 别 所 提供 的 信息 量 ， 信 息 量 的 多 少 表示 特征 词 忌 在 训练 集 所 有 类 别 中 出 现 的 文本 数 总 和 ; DF (t, Ci) 
和 来 衡量 。 表示 类 别 Ci 中 所 有 特征 词 出 现 的 文本 数 的 总 和 。 


201804.02406v1 


chinaXiv 


录用 稿 


其 基本 思想 是 : 构造 
该 二 维 矩阵 为 4#3 的 矩阵 ， 
征 词 鼠 在 Ci 类 别 出 现 的 文本 数 DF (te CD) 。 将 特 得 
的 各 个 DF (te CD 相 加 即 为 DF (ti) , 表示 特 和 


类 别 中 出 现 的 文本 数 总 和 ; 对 特征 词 t 所 在 行使 用 


即 为 计算 特征 词 t 在 Ci 类 的 类 i 
DF (ti, CD 相 加 即 为 DF (t, C;) ， 表 示 类 别 Ci 


E 词 tx 所 在 行 


个 特征 词 、 类 别 的 二 维和 矩阵。 假设 
如 表 2 所 示 。 和 抢 阵 中 的 元 素 代 表 特 


E 词 ti 在 训练 集 所 有 


DF(t, ,C:;) 


DFG(t) ， 


司 集 中 度 。 将 第 Ci 列 的 各 个 
Ph 所 有 特征 词 出 现 的 


文本 数 的 总 和 ， 对 特征 词 所 在 列 使 用 RE ， 即 为 计算 特 
征 词 孔 在 C, 类 的 类 内 分 散 度 。 
表 2 特征 词 、 类 别 的 二 维 矩 阵 
Ci C2 Cs 
ti 0 | 3 
t 3 0 0 
bt 1 1 1 
ta 0 2 0 


2.1.2 词 频 


能 够 代表 某 一 类 别 的 特征 词 应 是 频繁 
词 频 较 高 )， 同 时 考虑 对 词 频 进行 归 一 化 处 型 
文档 数 对 词 频 产 生 影响 。 


因此 ， 本 文 提出 : 


TF(t,C; )numDocs; 


其 中 : 


M 
DITFGt, ,CYnumDocs, ] 
i=] 


numDocsi 表示 类 别 Ci 的 文本 数 ，M 表示 类 别 数 。 


2.1.3 DFCTFS 评估 函数 


8 现在 该 类 别 中 《 即 
辟 免 类 别 中 的 


E， 避 


(10) 


TF (te C) 表示 特征 词 ti 在 类 别 Ci 中 出 现 的 次 数 ， 


因此 ， 综 合 考虑 特征 词 的 文档 频 、 词 频 以 及 特征 词 的 类 间 


本 


nt 


过 


中 度 、 类 内 分 散 度 , 提 


DFCTFS(1,,C)=aep= 
DF(t,C) , DFGi,C) 。 TF(uCD)numDocs 


DF(t, ) 


其 中 : DFCTFS (te Ci 表示 特 和 
DF( Lv Ci) 表示 特征 词 二 在 类 另 


特征 词 ti 在 训练 集 所 
示 类 别 Ci 中 所 有 特征 词 


数 ，M 表示 类 别 数 。 


M 
DFEG) SprFG ,Cc YnumDocs,] 
i=l 


a 


出 DFCTFS 特征 选择 的 评 佑 函数， 公式 


(11) 


E 词 t 在 类 别 Ci 中 的 DFCTFS 值 ; 
| Ci; 中 出 现 的 文本 数 ，DF (to 表示 
了 类 别 中 出 现 的 文本 数 总 和 ; DF (t, Ci 表 


H 现 的 文本 数 的 总 和 ; TF (ti, 0;) 表示 特 


2.2 DFCTFS 特征 选择 的 实现 思路 


训练 文本 集 通过 预 处 到 
特征 选择 方法 是 依据 CHI 评估 函 


E 和 特征 选择 后 形成 特征 词 库 。 


征 词 在 类 别 Ci 中 出 现 的 次 数 ，numDocsi 表示 类 别 Ci 的 文本 


CHI 


各 个 类 别 的 CHI 值 ， 使 / 


值 或 者 最 大 值 作 为 该 特 行 
特征 词 按 CHI 值 降序 排列 
练 集 的 特征 词 库 。IG 特 和 


人 


数 ， 得 到 每 个 特 和 


E 词 在 训练 外 


A 


特征 词 在 所 有 类 别 中 的 CHI 值 的 平均 
E 词 在 整个 训练 集中 的 CHI 值 ， 将 所 有 
， 选 取 一 定 比 例 的 特征 词 作为 整个 训 
E 选 择 方法 是 依据 IG 评估 函数 ， 得 到 


每 个 特征 词 在 整个 训练 集中 的 IG 值 ， 将 所 有 特征 词 按 IG 值 降 
序 排列 ， 选 取 一 定 比 例 的 特征 词 作为 整个 训练 集 的 特征 词 库 。 
本 文 提出 的 DFCTFS 特征 选择 方法 是 依据 本 文 提出 的 
DFCTFS 评估 函数 ， 从 训练 集 各 类 别 选择 一 定 比例 的 特征 词 ， 将 
所 获得 的 特征 词 取 并 集 后 形成 最 终 的 特征 词 库 。 
利用 DFCTFS 特征 选择 算法 进行 中 文 文本 分 类 的 算法 步骤 
如 图 1 所 示 。 


六 7 
/ 人 
| 训练 文本 集 | | 
旺 和 


7 
[测试 文本 集 | | 
Ey 


中 文 分 词 、 中 文 分 词 、 

去 停 用 词 去 停 用 词 
DFCTFS 特 征 | 
选择 特征 词 库 
> 
计算 特征 权 
。 重 ， 将 文档 
表示 月 间 
向 量 


便 用 分 美 算 让 
法 ， 进 行 分 利用 训练 得 到 的 模型 » ”分 类 
类 器 训练 


cs 
分 类 器 性 能 
评估 


加 1 ”中 文 文本 分 类 整体 流程 

a) 文本 预 处 理 。 首先 将 训练 集 和 测试 集中 的 文本 做 好 类 别 
标志 ; 其 次 将 训练 集 和 测试 集中 的 文本 进行 分 词 ， 去 停 用 词 。 
文本 经 过 预 处 理 后 变 成 由 词 项 表示 ， 即 为 原始 特征 空间 。 

b) 特征 选择 。 将 训练 集 经 过 预 处 理 后 的 原始 特征 空间 使 用 
DFCTFS 特征 选择 方法 得 到 特征 词 库 。 主 要 实现 思路 如 下 : 

(a) 构造 一 个 特征 词 、 类 别 的 二 维和 矩阵 , 其 中 行 代 表 特 征 词 ， 
列 代表 类 别 , 矩阵 中 的 元 素 为 DFCTFS 值 。 获取 训练 集中 原始 的 
所 有 特征 词 ， 编 号 为 tt 一 te 

针对 训练 集中 的 各 个 类 别 ， 统 计 特 征 词 t (k=1...N， 
词 项 总 个 数 ) 在 第 C (i=1...M，M: 类 别 数 ) 类 别 中 出 现 的 文 
本 数 DF (tu CD 和 次 数 TF (tu Ci)。 根据 ti, C; 定 位 到 二 维 矩 阵 相 
应 位 置 ， 利 用 DFCTFS 评估 函数 ， 计 算 C; 类 别 的 特征 词 ti 的 
DFCTFS 值 ， 从 而 构造 出 N*M 的 三 维和 矩阵 。 

(b) 依据 各 类 别 中 每 个 特征 词 的 DFCTFS 值 ， 对 每 个 类 别 中 
的 特征 词 进行 降序 排列 。 

(c) 依据 文献 [12] 所 述 ， 对 于 高 维 的 特征 词 空间 一 般 选 择 

2% 一 5% 的 特征 词 集合 作为 分 类 依据 。 根 据 此 规则 ， 首 先 获 得 训 
练 集中 总 类 别 数 〈 用 M 表 示 ) 以 及 训练 集中 特征 词 的 总 个 数 ， 
取 特 征 词 总 个 数 的 2% 一 5%〈 用 numWords 表示 ) ， 则 各 类 别 中 
选择 的 特征 词 个 数 num 为 numWords 除 以 M。 
(d) 各 类 别 中 都 依据 上 一 步 所 得 num 值 ， 选 取 该 类 别 中 降 
序 排 列 后 的 前 num 个 特征 词组 成 该 类 别 的 特征 词 库 。 
(e) 得 到 训练 集 的 特征 词 库 , 即 为 各 类 别 所 得 特征 词 库 的 并 
集 ， 即 保证 特征 词 库 中 词 的 唯一 性 。 

c) 建立 文本 表示 模型 。 其 中 向 量 空间 模型 使 用 最 为 广泛 ， 
主要 实现 思路 是 ， 根 据 特征 词 库 ， 计 算 训练 集中 每 篇 文本 对 应 
的 特征 词 的 权重 。 最 常 使 用 的 权重 计算 方法 是 TF-IDF《〈 词 频 - 


本 


nn 


7 
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逆 文 档 频 率 ) ， 即 将 训练 集 向 量化 后 形成 一 个 二 维 矩 阵 ， 每 一 
了 代表 一 篇 文本 ， 每 一 列 代表 特征 词 库 中 的 一 个 特征 词 。 测 试 
改作 同样 操作 。 

d) 使 用 分 类 算法 分 类 。 对 训练 集 
| 练 ， 得 到 分 类 模型 。 

e) 分 类 器 性 能 评估 。 利 用 训练 得 到 的 分 类 模型 ， 对 测试 集 


~、 


J 


泻 


用 分 类 算法 


进行 分 类 器 


< 


进行 分 类 ， 利 用 准确 率 、 召 回 率 、F1 值 ， 实 现 对 分 类 器 的 性 能 
评价 。 


3 ”实验 与 分 析 
本 文 的 实验 在 进行 文本 分 词 时 使 用 的 是 中 国 科学 院 计算 技 


术 研 究 所 研发 的 ICTCLAS 汉语 分 词 系 统 。 分 词 后 的 去 停 用 词 ， 
使 用 的 是 哈工大 停 用 词 表 ” 。 
3.1 语料库 

实验 中 使 用 的 语料库 是 复旦 大 学 计算 机 信息 与 技术 系 国 际 
数据 库 中 心 自然 语言 处 理 小 组 整理 的 中 文 语料库 "”。 选 用 其 中 
的 人 体育、 历史、 太空、 政治、 环境、 经济 、 艺 术 、 计 算 机 ， 共 
8 个 类 别 。 其 中 各 类 别 文本 的 选取 情况 如 表 3 所 示 。 

表 3 语料库 中 训练 集 和 测试 集 的 选取 情况 
体育 历史 太空 政治 环境 经 济 艺术 计算 机 

训练 集 400 400 400 400 400 400 400 400 
测试 集 65 63 65 65 65 65 65 65 
3.2 分 类 器 

实验 中 使 用 SVM 分 类 算法 实现 中 文 文本 分 类 ，SVM 将 基于 


台湾 大 学 林 智 仁 教授 等 开发 的 LIBSVM 工具 箱 的 Java 版 本 。 
为 建立 文本 表示 模型 时 使 用 的 是 向 量 空间 模型 ， 其 本 身 是 一 个 
大 且 稀 玻 的 矩阵 ， 线 性 可 分 ， 不 需要 再 对 其 进行 高 维 映 射 ， 所 
以 使 用 SVM 中 的 线性 核 函 数 ""。 使 用 线性 核 函数 需要 寻找 最 优 
参数 C (惩罚 因子 ) ”。 本 文 使 用 的 是 传统 的 网 格 搜索 方法 , 在 
姑 内 ， 对 训练 集 采 用 交叉 验证 的 方法 ， 找 出 交叉 验证 准 
确 率 最 高 的 C 值 ， 作 为 SVM 模型 中 的 惩罚 因子 C 的 取 值 。 
3.3 评价 标准 
实验 中 将 采用 召 匠 住 确 率 、F1 值 在 单个 类 别 上 进行 评 
用 宏 召 回 率 、 宏 准确 率 、 宏 Fl 值 在 整体 上 进行 评价 。 召 
可 率 衡量 的 是 分 类 器 的 完备 性 ， 准 确 率 衡 量 的 是 分 类 器 的 正确 
性 ，F1 值 是 调节 召回 率 和 准确 率 的 一 个 平衡 点 。 召 回 率 R、 准 
确 率 P、F1 值 、 宏 召回 率 MacroR、 宏 准确 率 MacroP、 宏 Fl 值 
MacroF1 的 公式 如 下 : 


一 定 范 


J 


率 、; 


“MG (12) 
He (13) 
Mk (14) 

MacroR = 各 (15) 
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2 
a 7) 


其 中 :NM 为 类 别 数 ，A、B、C、D 参数 的 意义 如 表 4 所 示 。 


表 4 召回 率 、 准 确 率 公 式 中 的 参数 意义 
属于 该 类 不 属于 该 类 
判定 为 属于 该 类 的 A B 
判定 为 不 属于 该 类 的 C D 


3.4 实验 结果 及 分 析 


表 5 一 7 以 及 相应 的 图 2 一 4 是 分 别 选择 原始 特征 词 集合 的 


2%、3%、4%，5% 作 为 特征 向 量 空间 维 
Fl 值 上 的 实验 结果 。 通 过 在 不 同 给 
整体 评价 , 验证 本 文 提出 的 


宏 


数 在 宏 召 匠 


AS 


宏 ; 


伟 对 比 ， 传 统 的 CHI 和 
作 确 率 、 宏 Fl 值 在 不 同 维 
文 提出 的 DFCTFS 特征 选择 方法 在 不 同 维度 上 的 分 类 效果 相 


度 


F 所 
-二 


DFCTFS 特 行 
IG 特征 


E 度 上 对 分 类 器 性 能 进 
E 选 择 方法 的 有 效 性 。 


EF 下 波动 的 趋势 ,而 


率 、 宏 准确 率 、 


通 


择 方法 的 分 类 宏 召 回 率 、 
岗 出 


本 


较 


于 CHI 和 IG 而 言 , 都 有 一 定 程度 的 提高 , 并 且 特 征 
度 不 同 。 在 本 文 站 


数 不 同 ， 提 升 的 幅 


的 实验 中 ， 选 择 原始 特 条 


向 量 空间 


维 


集合 的 5% 作 为 特征 向 是 


量 罕 间 允 


分 析 DFCTFS 特征 选择 方法 优 了 
是 因为 DFCTFS 特征 选择 评估 


频 统计 的 ， 特 征 选 择 日 


数 ， 提 升 的 


传 


函数 是 基于 类 内 类 间 文 档 频 和 


晶 度 最 大 。 
统 的 CHI 和 I6 的 原因 


的 特征 词 是 


类 文档 中 均匀 分 布 且 频繁 出 


做 的 是 本 地 特征 选择 ， 


择 出 的 特征 词 在 具体 类 别 中 更 


纲 


在 


案 中 


分 布 于 某 类 文档 


的 。 同 时 ，DFCTFS 特征 选择 方 


相 较 于 全 


F 词 


词 
该 
法 


局 特征 选择 方法 而 言 ， 特 征 选 
kt 有 代表 性 。 


表 5 CHI、IG 和 DFCTFS 在 不 同 维度 的 宏 召 回 率 的 比较 
2% 3% 4% 5% 
CHI R 0. 9288 0.925 0. 9326 0. 925 
IGR 0. 9134 0. 9326 0. 925 0. 9307 
DFCTFS R 0. 9307 0. 9384 0. 9403 0. 9461 
0.95 
0.94 
2 gp i 
—e—CHIR 
2 — 归 -IGR 
0.91 SR 
0.9 
和 2% 3% 4% 5% 
妈 2 ”CHI、IG 和 DFCTFS 在 不 同 维度 的 宏 召 回 率 的 比较 
表 6 CHI、IG 和 DFCTFS 在 不 同 维度 的 宏 准 确 率 的 比较 
2% 3% 4% 5% 
CHIP 0.931 0.927 0.9343 0.9259 
IGP 0.9143 0.9339 0.9271 0.9334 
DFCTFSP 0.9321 0.9402 0.9416 0.947 


201804.02406v1 


chinaXiv 


录用 稿 赵 婧 ， 等 : 文本 分 类 中 一 种 特征 选择 方法 研究 
095 = 1 
0.94 > -he 一 一 一 一 _ 0.95 
093 ,, 
092 IGP i IGR 
0.91 DEG TS 
0.9 | 
i 3% 六 世相 计算机 
图 3 CHI、IG 和 DFCTFS 在 不 同 维度 的 宏 准 确 率 的 比较 5 _ CHI、IG 和 DFCTFS 在 分 类 召回 率 的 比较 
表 7 CHI、IG 和 DFCTFS 在 不 同 维度 的 宏 Fl 值 的 比较 表 9 CHI、IG 和 DFCTFS 在 各 类 别 上 分 类 准确 率 的 比较 
2% 3% 全 5% CHIP IGP DFCTFSP 
CHI Fl 0. 9293 0. 9252 0. 9327 0. 9248 体育 0.9242 0.9393 0.9538 
IG Fl 0. 9132 0. 9326 0. 9251 0.931 历史 0.8593 0.8529 0.9206 
DFCTFS Fl 0. 9309 0. 9385 0. 9402 0. 946 太空 0.8823 0.8695 0.9104 
政治 0.9661 1 1 
2 EE 环境 0.9696 0.9692 0.9696 
ee es 经 济 0.9014 0.9142 0.9154 
ee cH 艺术 0.9841 1 0.9687 
oe ed 计算 机 0.9206 0.9218 0.9375 
09 
Eo 2% | 3% 4% 5% 
图 4 CHI、IG 和 DFCTFS 在 不 同 维度 的 宏 Fl 值 的 比较 i 
以 下 实验 结果 是 通过 对 具体 类 别 分 类 效果 的 评价 ， 进 一 步 , a 
验证 本 文 提出 的 DFCTFS 特征 选择 方法 的 有 效 性 。 实 验 选 择 原 
始 特征 词 集合 的 5% 作 为 特征 向 量 空间 维 数 。 通 过 对 表 8 一 10 及 EPZ 
相应 的 图 5 一 7 分 析 ， 可 以 得 出 本 文 提 出 的 DFCTFS 特征 选择 ， 图 6 CHI、IG 和 DFCTFS 在 分 类 准确 率 的 比较 
在 所 选 的 8 个 类 别 的 分 类 效果 的 整体 趋势 上 好 于 传统 的 CHI 和 表 10 CHI、IG 和 DFCTFS 在 各 类 别 上 分 类 F1 值 的 比较 
IG。 通 过 对 表 11 及 相应 的 图 8 分 析 ， 可 以 得 出 本 文 提出 的 CHIF1 IGF1 DFCTFS Fl 
DFCTFS 特征 选择 方法 ， 在 分 类 的 宏 召 回 率 上 与 CHI、IG 相 比 分 体育 0.9312 0.9465 0.9538 
别提 高 了 2. 11%、1. 54%, 在 宏 准 确 率 上 分 别提 高 了 2. 11%、1. 36%， 历史 0.8527 0.8721 0.9062 
在 宏 Fl 值 上 分 别提 高 了 2. 12%、1. 5%。 因 此 ， 可 以 得 出 ， 本 文 太空 0.9022 0.8955 0.9242 
提出 的 DFCTFS 特征 选择 方法 与 传统 的 CHI 和 IG 相 比 ， 文 本 分 政治 0.9193 0.9256 0.96 
类 效果 有 一 定 程 度 的 提高 ， 说 明了 DFCTFS 特征 选择 方法 的 有 环境 0.977 0.9692 0.977 
效 性 。 经 济 0.9411 0.9481 0.9558 
表 8 CHI、IG 和 DFCTFS 在 各 类 别 上 分 类 召回 率 的 比较 艺术 0.9687 0.9763 0.9612 
CHIR IGR DFCTFS R 计算 机 0.9062 0.9147 0.9302 
体育 0.9384 0.9538 0.9538 
历史 0.8461 0.8923 0.8923 i 
太空 0.923 0.923 0.9384 本 
政治 0.8769 0.8615 0.923 HIEY 
环境 0.9846 0.9692 0.9846 Ba 而 
经 济 0.9846 0.9846 1 四 
艺术 0.9538 0.9538 0.9538 六 区 5 直 失 二 
计算 机 0.8923 0.9076 0.923 
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表 11 CHI、IG 和 DFCTFS 在 整体 分 类 效果 上 的 比较 
宏 RR 宏 P 宏 Fl 
CHI 0. 925 0. 9259 0. 9248 
IG 0. 9307 0. 9334 0. 931 
DFCTFS 0. 9461 0. 947 0. 946 
0.95 
0.945 
0.94 
0.935 
加 CHI 
0.93 上 闪 
0.925 DFCTFS 
0.92 
0.915 1 -一 
0.91 T 
宏 R 宏 P 宏 F1 
图 8 CHI、IG 和 DFCTFS 在 整体 分 类 效果 上 的 比较 
4 ”结束 语 


本 文 分 析 了 传统 特征 选择 效果 较 好 的 CHI 和 IG 特征 选择 
方法 存在 的 不 足 ， 即 未 考虑 特征 词 在 各 类 别 中 的 词 频 分 布 ， 类 
别 负 相 关 特 征 词 的 干扰 ; 以 及 IG 只 能 做 全 局 的 特征 选择 , 而 无 
法 做 本 地 的 特征 选择 。 并 由 此 得 出 ， 文 本 分 类 中 的 特征 选择 关 
键 在 于 选择 出 集中 分 布 于 某 类 文档 并 在 该 类 文档 中 均匀 分 布 且 
频繁 出 现 的 特征 词 。 因 此 ， 综 合 考 虑 特征 词 的 文档 频 、 词 频 以 
及 特征 词 的 类 间 集 中 度 、 类 内 分 散 度 ， 提 出 一 种 基于 类 内 类 间 
文档 频 和 词 频 统计 (CDFCTFS) 的 特征 选择 方法 。 

通过 基于 SVM 的 中 文 文本 分 类 实验 验证 , DFCTFS 特征 选择 
与 CHI、16 特征 选择 方法 相 比 ， 在 一 定 程度 上 提高 了 中 文 文本 
分 类 的 效果 。 但 是 由 于 中 文 文本 分 类 系统 涉及 文本 预 处 理 ， 特 
征 降 维 ， 建 立 文本 表示 模型 中 的 特征 词 权重 的 计算 ， 分 类 算法 
决策 等 多 个 环节 ， 最 终 的 分 类 效果 是 由 以 上 所 述 环节 共同 作用 
的 结果 。 因 此 ， 仅 改进 特征 选择 的 方法 ， 只 能 在 一 定 程度 上 提 
高 分 类 的 效果 。 
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